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摘要 : 以 可 扩展 性 极 强 的 开源 软件 R 程序 语言 为 工具 ， 发 挥 在 统计 学 和 数据 挖 所 领域 强大 
的 数据 分 析 能 力 ， 重 点 研究 R 语言 用 于 读 写 FITS 格式 文件 软件 包 RFITSIO 的 主要 功能 和 特点 ， 
并 对 LOMAST 采集 的 FTTS 文件 进行 详细 介绍 ， 将 海量 LOMAST 巡天 光谱 DR2 数据 用 RFITSIO 读 
出 恒星 光谱 ， 并 利用 R 语言 的 主 成 分 分 析 工 具 提 取 各 类 型 光谱 数据 的 特征 量 即 主 成 分 。 从 含有 大 
量 宛 余 信 息 的 光谱 中 提取 代表 恒星 光谱 特征 的 主要 成 分 ， 通 过 采用 主 成 分 分 析 方 法 提取 光谱 特 
征 ， 重 构 后 能 够 有 效 降低 原始 光谱 数据 受 噪声 的 影响 ， 为 后 续 数 据 挖 握 工 作 提 供 研 究 基 础 。 
关键 词 : R 语言 ; FITSIO; 光谱 巡天 ; LAMOST; 主 成 分 分 析 
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R 程序 语言 是 集成 了 多 种 数据 分 析 和 可 视 化 方法 的 开源 软件 ,已 成 为 信息 时 代 大 数据 分 析 的 重要 
工具 ， 并 在 统计 学 和 数据 挖掘 领域 可 扩展 性 极 强 ， 具 备 强 大 的 数据 分 析 能 力 ， 能 有 效 地 简化 数据 分 析 
的 过 程 。 为 了 将 R 语言 的 优势 应 用 到 天 文 数据 分 析 中 ， 首 先 需要 了 解 天 文 数 据 的 格式 。 国 际 通用 天 
文 数据 格式 的 标准 是 普 适 图 像 传输 系统 5(Flexible Image Transport System, FITS) ， 该 格式 由 文 [1] 于 
1979 年 首先 提出 ， 用 于 描述 天 文学 数据 定义 和 数据 本 身 编 码 的 格式 方法 ， 已 成 为 天 文学 领域 应 用 最 
广泛 的 数据 格式 。 前 人 已 将 FITSIO 软件 包 应 用 于 FORTRAN 语言 、C 语言 、IDL 语言 中 ， 编 写 读 取 
FITS 文件 ， 分 析 天 文 数据 读 取 等 大 量 的 相关 工作 。 文 [2-3] 概 述 了 FITS 文件 的 标准 数据 格式 以 及 3 
种 类 型 即 图 像 文件 、ASCII 表 文 件 和 二 进 制 表 文件 等 ， 文 [2] 对 FITS 基本 格式 及 其 扩展 进行 了 较 详 细 
的 分 析 阐 述 ， 文 [3] 对 g、r、i 3 个 波段 的 FITS 图 像 文 件 进行 了 重新 读 写 ， 分 析 了 斯 隆 数字 巡天 的 测 
光 数 据 ， 文 [4] 利 用 数据 库 保存 和 管理 FITS 头 信息 归档 人 库 ， 提 供 光 谱 数据 文件 的 查询 检索 。 近 年 
来 ， 由 于 R 语言 在 各 专业 的 统计 领域 广泛 应 用 , 已 经 有 美国 马里 兰 大 学 Andrew Harris 等 "用 有 语言 
编写 了 读 取 FITS 的 软件 包 RFITSIO, 

国内 外 已 相继 开展 了 多 个 天 文大 规模 巡天 项 目 ' ， 如 2dF、6dF、RAVE 、SDSS、LAMOST 和 Gaia 
等 ， 这 些 大 规模 光学 光谱 巡天 已 获取 数 以 十 万 、 百 万 甚至 千 万 计 的 天 体 光 谱 !9 。2013 年 我 国 自 主 研 
发 的 大 天 区 面积 多 目标 光纤 光谱 望远镜 [71 (Large Sky Area Multi-Object Fiber Spectroscopy Telescope, 
LAMOST) 是 目前 世界 上 口径 最 大 、 视 场 范 围 广 、 观 测 目 标 最 多 、 天 体 光 谱 获 取 率 最 高 的 光纤 光谱 望 
远 镜 ， 获 取 的 FITS 格式 光谱 大 数据 信息 达 107 数 量 级 。LAMOST 目前 已 经 对 国际 公开 发 布 了 巡天 数据 
约 380 万 条 ， 其 中 未 能 被 软件 识别 的 有 306 810 条 。 由 于 大 数据 导入 时 包含 了 大 量 的 宛 余 信息 ， 所 以 
恒星 光谱 的 全 频谱 信号 充分 利用 多 元 统计 分 析 ( Multivariable Statistical Analysis) 这 些 数据 ， 本 文 利 用 R 
语言 提供 的 数据 挖掘 工具 ， 通 过 主 成 分 分 析 方 法 消除 流量 特征 之 间 的 相关 性 ， 从 原始 光谱 数据 中 提取 
与 物理 参数 相关 的 特征 ， 降 维 数据 并 剔除 噪声 。 
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1 LAMOST 光谱 数据 FITS 格式 


20 世纪 80 年 代 ， 国 际 天 文联 合 会 正式 公布 FITS 格式 作为 天 文 数 据 的 国际 标准 ， 世 界 各 地 的 数 
据 中 心 和 天 文学 家 以 此 文件 为 标准 ， 完 成 了 相关 人 研究 的 保存 和 数据 交换 。LAMOST 中 FITS 文件 已 发 
布 的 文件 名 格式 为 spec-MMMMM-YYYY _spXX-FFF.fitgs， 扩 展 名 .fis ， 其 中 ，MMMMM 代表 当地 修正 的 
儒 略 日 (MJD， 即 公元 前 4713 年 1 月 1 日 起 计 )，YYYY 是 计划 标识 的 字符 串 (PLANID， 即 计划 号 )， 
XX 表示 光谱 仪 的 数字 编号 (在 1 到 16 之 间 )， 并 有 日 FFF 显示 了 采集 光谱 的 光纤 编号 (在 1 到 255 之 
间 )。 此 外 ，LAMOST 还 通过 设计 关键 字 “LAMOST JHHMMSS.ss+DDMMSS.ss” 的 形式 指定 对 应 一 个 
目标 文件 ， 其 中 HHMMSS.ss 是 以 时 分 秒 为 单位 的 赤 经 值 ，DDMMSS.ss 是 以 度 分 秒 为 单位 的 赤 纬 值 ， 
在 FITS 文件 的 基本 头 部 单元 ， 可 选择 符合 扩展 以 及 其 他 可 选择 的 特殊 记录 ， 并 将 头 文件 分 成 8 组 包 
括 强 制 关 键 字 、 文 件 信息 关键 词 、 望 远 镜 参数 关键 字 、 观 测 参数 关键 字 、 光 谱 仪 参数 关键 字 、 天 气 条 
件 关键 字 、 数 据 简 化 参数 关键 字 和 光谱 分 析 结 果 关 键 字 。 


2 RFITSIO 软件 包 简 介 


20 世纪 70 年 代 开 发 的 天 文 数据 文件 FITS 格式 有 别 于 GIF, JPG 等 图 像 文 件 ' 沾 ， 它 作为 一 种 标准 
的 数据 格式 可 同时 存储 图 像 和 数据 表格 。20 世纪 90 年 代 初 ， 美 国 高 能 物理 科学 研究 中 心 '1 研 发 了 功 
能 强大 、 使 用 简便 的 FITSIO 程序 库 ， 在 FORTRAN 程序 和 C 语言 程序 中 均 可 直接 调用 该 程序 库 ， 并 
提供 简单 的 途径 完成 读 、 写 FITS 格式 的 文件 。 


研究 中 R 语言 包 是 从 相应 的 Comprehensive 表 1 readFITS 返回 值 及 参数 列表 

R Archive Network 镜像 站 点 下 载 并 将 其 放 和 人 库 Table 1 Return values from readFITS and arguments list 
"P, WMR FITSIO 包 后 读 取 ， 这 个 包 中 包含 的 功 向 量 功能 

能 用 于 读 取 FITS 头 文件 数据 单元 (HDUs) 的 图 像 header 将 END 语句 输入 文件 头 

和 扩展 二 进 制 表 ， 以 及 写 入 FITS 图 像 文件 等 功 


du hdr 将 头 文件 的 各 组 解析 值 赋 给 关键 字 
能 。 其 中 函数 readFITS 能 自动 识别 图 像 ( 多维 数 


组 ) 和 扩展 二 进 制 表 、 返 回 数据 、 头 文件 和 扩展 ED ARRAI] 

SEJE, MŽ readFITS 返回 值 及 参数 如 表 1。 axDat 带 轴 缩放 和 标签 ( 图像) 的 数据 帧 

利用 readFrameFromFITS 返回 从 二 进 制 表 头 文件 数 col 每 个 列 的 数据 (二 进 制 表 ) 

据 单元 的 R 语言 数据 框架 ， 这 两 个 函数 主要 接收 TN FITS 文件 头 部 和 数据 单元 的 位 置 ; 

头 文件 数据 单元 的 文件 参数 、 二 进 制 表 位 等 。 “1” 即 为 第 1 个 文件 头 部 和 数据 单元 
colNames 列 名 称 向 量 TTYPEn FITS 变量 

3 及 语言 分 析 光 谱 数 据 colUnits ”” 列 单元 的 向 量 TUNITn FITS 变量 


TNULLn 未 定义 值 的 定义 向 量 ，FITS 变量 
TSCALn 缩放 倍 乘 的 向 量 ，FITS 变量 


R 语言 具备 强大 的 统计 功能 ， 从 分 析 事 物 、 
判别 分 析 对 象 分 类 到 已 知 类 别 数量 集 的 表现 特 
征 ， 聚 类 分 析 一 定 尺度 的 对 象 相关 性 ， 推 断 该 分 ME E 
析 对 象 事物 内 在 可 能 存在 的 规律 性 。 常 用 的 方法 TDISPn 格式 信息 向 量 ，FITS 变量 
有 回归 分 析 、 判 别 分 析 、 聚 类 分 析 以 及 探索 性 分 
析 。 天 文学 中 的 统计 方法 从 1996 年 以 来 ， 如 文 [10] 采 用 Fortran 程序 、C 语言 程序 以 及 Python 程序 ， 
本 文 实验 分 析 基 于 R 语言 程序 平台 。 

3.1 数据 获取 

从 http ;//dr2.lamost.org/ F Z& 2016 年 6 H LAMOST 发 布 的 第 2 次 巡天 共享 数据 dio. 7z 共计 156 GB, 

下 载 后 DR2 中 恒星 数据 按 CLASS 字段 执行 分 类 到 恒星 74 个 文件 夹 ， 实 现 FITS 文件 的 聚 类 分 布 及 科 
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学 计算 ， 分 析 输 出 绘制 图 表 。 
3.2 数据 处 理 环境 

实验 编程 及 程序 运行 在 Linux 环境 下 ,采用 R 版 本 2. 9. 0 程序 语言 编写 ， 载 人 FITSIO 软件 包 。 
实验 下 载 服务 器 https ://cran. r-project. org/src/contrib/ Archive/FITSio/FITSio, _1.2-0.tar.gz， 安 装 命令 
install.packages(" FITSio" ) 执行 后 ， 选 择 CRAN mirror 7j *32;China( Beijing)”。 
3.3 绘制 数据 一 维 光 谱 图 

R 语言 是 动态 语言 ， 在 编写 代码 时 常 采用 两 种 形式 ， 一 种 形式 如 同 书写 文章 ， 将 要 完成 的 功能 按 
模块 编写 后 统一 运行 ; 男 一 种 形式 则 是 编写 一 行 语句 编译 该 行 。RStudio 分 为 4 个 工作 区 域 , 左上 区 
域 为 “编写 代码 ”。 左 下 区 域 也 可 写 代 码 且 运行 程序 数据 输出 ， 即 能 完成 编写 一 句 回 车 编译 解释 一 名 
的 工作 区 域 。 右 上 区 域 为 “工作 区 及 历史 记录 ”， 如 图 1， 使 用 RStudio 直观 显示 文件 的 环境 变量 。 碳 
下 区 域 包 括 的 主要 功能 :“ Files” 查 看 当前 主页 下 的 文件 ;“Plots” 展 示 运 算 结 果 的 图 案 ;“Packages” 
展示 系统 已 安装 的 软件 包 ， 同 时 色 选 载 和 内存;“Help” 查 看 帮助 文档 等 功能 。 


Environment History po 


€ A E mpor Datasets — 3^ List» 
fh Global Environment» 
QM. STAR List of 4 A 
imDat : num [1:3909, 1:5] -66.216 71.728 -129.072 -8.909 -0.273 ... 
axDat :'data.frame': 2 obs. of 6 variables: 
..$ crpix: num [1:2] 1 1 
..$ crval: num [1:2] 3.57 1 
-.$ cdelt: num [1:2] 1 1 
..$ len : int [1:2] 3909 5 
..$ ctype: chr [1:2] "LINEAR" "" 
(Port chr pl:2] " "9 
hdr : chr [1:252] "SIMPLE" "T" "BITPIX" "-32" ... 
header: chr [1:128] "SIMPLE = T /Primary Header created by MWRFITS vi.11b " "BITPIX = -32 / " "NAXIS. 


图 1 RStudio 右上 工作 区 读 取 M 型 星 数 据 变 量 例 表 图 
Fig.1 The M Star data variable list in the right top workspace reads of RStudio 


LAMOST 发 布 的 巡天 光谱 FITS 数据 通过 cfitsio 软件 包 写 成 ， 完 全 依据 国际 天 文联 合 会 发 布 的 天 
文 数据 国际 标准 格式 ， 从 已 下 载 的 恒星 数据 中 解压 FITS 命名 “spec-MMMMM-YYYY_spXX-FFF .fits” 
格式 指定 目标 文件 ， 利 用 require( FITSio) 载 入 需要 的 FITSio 软件 包 ， 读 取 光 谱 数 据 文件 readFITS(" 路 
径 * .fits" )。 利 用 表 1 中 介绍 的 readFITS 返回 值 及 参数 列表 ,利用 M. STAR $ imDat 提取 特征 向 量 矩 
阵 ， 可 将 其 存储 成 .csv、.txt 等 格式 文件 ， 再 读 取 对 应 参数 信息 数据 列 ， 并 限定 最 大 数据 范围 值 。 利 用 
plot( ) 函数 选用 type="s" ， 任 意 选 取 LAMOST 巡天 数据 库 中 的 ALV 型 星光 谱 数 据 文件 spec-55938- 
GAC_070N40_V1_sp04-161.fits， 绘 制 流量 光谱 图 如 图 2。 


Pm AIIV STAR(spec-55938-GAC 070N40 V1 sp04-161.fits) 


30 000 


20 000 


Flux( 流 量 ) 


10 000 


4 000 5 000 6 000 7 000 8 000 9 000 
Wave( 波 长 ) 


图 2 有 语言 读 取 并 绘制 的 LAMOST 巡天 数据 AlIV 型 星 流量 光谱 图 
Fig.2 A spectrum of AlIV type Star in LAMOST survey data read and draw by R 
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4 挖掘 高 维 光 谱 数据 


实验 采用 降 维 数据 的 方法 处 理 维 数 无 限 增 大 时 ， 简 化 线性 变换 掩盖 数据 原 有 的 信息 ， 探 索 适 合 的 
投影 方向 ， 选 取 最 优 贡 献 率 将 高 维 空间 的 目标 特征 信息 尽 可 能 忠实 地 投影 到 低 维 空间 ， 进 而 高 效 地 提 
取 高 维 空间 中 存在 的 明显 差异 或 特征 。 
4.1 主 成 分 分 析 方 法 应 用 

高 维 空间 向 低 维 空间 线性 变换 的 关键 取决 于 缺失 数据 的 特征 信息 及 关联 属性 。 主 成 分 分 析 是 一 
种 多 变量 数据 线性 分 析 方 法 ， 能 够 较 好 地 完成 大 样本 多 参数 定量 的 数据 分 析 ， 具备 非 监督 性 ， 在 尽 
可 能 少 损失 信息 的 前 提 下 ,利用 降 维 理念 完成 正 交 变换 。 由 于 各 主 成 分 变量 的 总 方差 贡献 率 的 大 小 
不 同 ， 在 研究 过 程 中 ， 一 般 挑 选 前 面 儿 个 方差 最 大 的 主 成 分 ( 累计 方差 贡献 率 在 80% ~ 90% ) 分 析 问 
题 ， 从 而 降低 问题 的 复杂 程度 ， 抓 住 主要 成 分 。R 语言 在 主 成 分 分 析 中 ， 能 高 效 快捷 地 对 光谱 数据 进 
行 计 算 分 析 。 

4.2 R 语言 光谱 数据 主 成 分 分 析 

为 了 去 除 如 光子 噪声 和 设备 的 热 噪声 等 宛 余 信息 的 恒星 全 频谱 信号 光谱 ， 较 好 地 从 原始 光谱 数据 
中 提取 物理 参数 的 相关 特征 ， 提 高 物理 参数 测量 模型 的 可 靠 性 和 运行 效率 ， 实 验 采 用 R 语言 中 核心 
stats 包 的 prcomp 函数 对 光谱 数据 的 特征 量 提取 完成 主 成 分 分 析 ， 主 成 分 分 析 是 基于 光谱 域 的 特征 提 
取 方 法 ,通过 提取 光谱 中 每 个 波段 对 应 的 光谱 信号 描述 能 力 强 弱 的 流量 特征 值 ， 旋 转 坐 标 系 后 消除 特 
征 之 间 相 关 性 的 光谱 分 辨 力 ， 达 到 数据 降 维和 剔除 噪声 的 目的 。 天 文 研究 中 主 成 分 分 析 处 理 需 考虑 特 
征 和 物理 参数 间 的 关系 ， 提 取 不 同 的 物理 参数 的 特征 相关 性 时 难于 解释 其 物理 意义 ， 仅 仅 是 数学 上 的 
线性 相关 。 现 就 LAMOST 大 样本 、 多 变量 的 数据 光谱 进行 主 成 分 分 析 的 应 用 。 

4.3 LAMOST 光谱 数据 提取 主 成 分 分 析 实 验 

在 及 语言 环境 下 调用 require( graphics ) ， 运 行 主 成 分 分 析 时 需 去 掉 提 取 后 的 字段 名 ， 也 可 以 用 
stats 包 中 的 preomp 函数 及 princomp ( ) 国 数 进行 主 成 分 分 析 ，princomp 因数 返回 一 个 princomp 对 象 ， 
用 summary ( ) 函数 查询 每 个 主 成 分 的 重要 信息 ， 用 loadings 函数 查看 每 个 变量 对 主 成 分 的 贡献 度 。 此 
处 以 ATIV 类 不 同 光 谱 数 据 的 主 成 分 为 例 ， 分 析 的 结果 差别 较 明显 ， 光 谱 主 成 分 分 析 结 果 如 图 3。 


图 3 R 语言 对 AllV 型 星 主 成 分 分 析 后 summary( ) 的 显示 结果 


Fig.3 The summary( ) function result of A1IV stellar spectrum Principal Conponent Analysis using in R 


Td zs e YE t RR RIAR, Aa HEF, E3 中 Standard deviation 表示 主 成 分 的 标准 差 ， 
对 相应 特征 值 的 开 方 ， 即 主 成 分 方差 平方 根 ; Proportion of Variance 表示 方差 贡献 率 如 Comp. 1 = 
99. 09%; Cumulative Proportion 表示 方差 累计 贡献 率 ， 第 770 个 主 成 分 Comp. 770 时 其 和 为 1。 在 此 例 
中 选取 A1IV 型 恒星 前 4 个 主 成 分 ， 总 方差 贡献 率 达 到 99. 796%。 用 这 4 个 主 成 分 重 构图 3 ANV 
型 星光 谱 数 据 文件 spec-55938-GAC_070N40_V1_sp04-161.fits， 重 构 后 如 图 4 显示 的 光谱 噪声 幅度 减 
小 ， 曲 线 光 滑 ， 而 主要 的 光谱 特征 谱 线 都 未 受 损 失 ， 说 明 用 主 成 分 分 析 方 法 进行 特征 提取 是 高 效 的 。 
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图 4 R 语言 重 构 AllV 型 星光 谱 数 据 文件 “spec-55938-GAC_070N40_V1_sp04-161.fits” 的 流量 光谱 图 
Fig.4 Reconstraction of a AllV type spectrum “ spec-55938-GAC_070N40_V1_sp04-161.fits” in LAMOST by R 


5 结论 与 展望 


目前 天 文学 与 云 计算 在 大 数据 领域 的 研究 应 用 合作 "i ， 将 逐步 提升 天 文 领域 更 深入 地 探索 宇宙 
空间 ,海量 数据 处 理 需 依 徘 得 力 的 工具 ，R 语言 平台 及 其 强大 的 统计 分 析 软 件 包 应 用 在 天 文学 中 将 充 
分 发 挥 其 性 能 优势 ， 在 海量 数据 人 处理 挖掘 过 程 中 发 挥 重 要 的 作用 。 本 文 用 RFITIO 对 天 文 数据 的 读 写 
和 主 成 分 分 析 方 法 的 概念 构造 光谱 的 主 成 分 为 例 ， 寻 找 天 文 光谱 数据 多 变量 的 “代表 ”提取 到 低 维 
空间 样本 主要 特征 点 ， 将 R 语言 初步 应 用 于 天 文 数 据 挖 据 中 ， 研 究 结果 表明 ， 结 合 天 文 数据 的 领域 
知识 与 及 语言 具有 的 大 数据 分 析 优势 ， 能 够 更 加 高 效 地 获取 挖掘 天 文 光谱 数据 ， 是 下 一 步 天 文 数据 
应 用 的 一 项 有 价值 的 尝试 。 
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Application of R language in LAMOST Spectral Analysis 
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Abstract: The data mining research of large-scale survey is focused on handling, processing and extracting 
information from massive astronomical data. In this paper, we try to apply the extensible R programming 
language in LAMOST spectral analysis, and make full use of its capability of integrated data analysis and 
visualization methods. We mainly study the functions and characteristics of the RFITSIO package for reading 
and writing FITS format files in R. We then group the LAMOST DR2 data according to the released 
classification result, and the PCA package in R is applied in each group to extract spectral features from the 
large amount of noisy spectra. The result shows that, the spectral features are well kept through PCA 
reconstruction. By extracting the FLUX eigenvalues of the spectral signal description capability of each band in 
the spectrum, the PCA is used to extract the characteristic value of LAMOST. Rotating coordinate system to 
eliminate the correlation between the characteristics of the spectral resolution of the data, to reduce the 
dimensionality of data and remove the effect of noise. This dimensional reduction based feature extraction 
method can be a very efficient pre-processing approach for the follow-up data mining in LAMOST dataset. 
Key words: R language; Flexible Image Transport System Input Output; Spectroscopic Survey; Large Sky 
Area Multi-Object Fiber Spectroscopy Telescope; Principal Component Analysis 


